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摘要 : 【 目的 】 识 别 网 络 奥 情 中 的 观点 主题 。[ 方法 】 通过 与 情 信息 内 容 、 用 户 关 系 、 用 户 行为 三 个 方面 的 4 个 
维度 (时 间 维 、 用 户 维 、 内 容 维 、 观 点 维 ) 的 关联 , 构建 微 博 与 情 观 点 主题 识别 模型 。[ 结果 】 提 出 包括 舆情 网 络 
构建 、 观 点 主题 抽取 及 聚 类 、“ 有 用户- 所属 观 点 主题 ”2- 模 网 络 构建 、 观 点 主题 演化 分 析 4 部 分 的 网 络 仁 情 观 点 主 
题 识别 方法 体系 , 实验 结果 证 明 该 方法 体系 可 有 效 识别 网 络 与 情 中 的 观点 主题 。【 局 限 】 用 户 属 性 对 观点 主题 识 


别 的 影响 有 待 进一步 考虑 。[ 结论 ] 基于 社会 网 络 视角 , 利用 LDA 主题 模型 ， 可 多 方面 、 多 维度 地 识别 网 络 与 情 


观点 主题 。 
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观点 主题 


1 引 言 


自 媒体 平台 在 给 和 人们 提供 共享 、 交 流 新 方式 的 同 
时 ,也 使 得 由 网 络 引 起 、 放 大 或 主导 的 社会 与 情事 件 
频 发 。 由 于 互联 网 具有 信息 发 布 及 时 、 传 播 速 度 快 、 
影响 范围 广 等 特性 ， 导 致 与 情事 件 一 旦 在 互联 网 上 爆 
发 将 呈 不 可 逆转 的 趋势 。 此 外 ,网络 的 开放 性 和 隐蔽 
性 为 网 民 提 供 了 观点 表达 的 场所 ,观点 是 人 们 对 某 个 
事物 或 事件 所 产生 的 带 有 情感 倾向 性 的 看 法 或 态度 。 
面 对 海量 的 网 络 与 情 观 点 信息 ,政府 和 企业 要 想 及 时 
做 好 网 络 熏 情 引导 工作 ,就 必须 快速 把 握 网 络 与 情 参 
与 主体 当下 所 持 有 的 主要 观点 。 本 文 将 网 民主 体 在 与 
情事 件 中 所 处 立场 , 或 者 所 形成 的 对 与 情事 件 /问题 的 
主要 看 法 称 为 网 络 与 情 观点 主题 ,而 从 大 规模 网 络 导 
情 信息 中 获取 观点 主题 , 并 进行 展示 的 一 系列 技术 方 
法 就 称 作 观点 主题 识别 。 

现 有 研究 多 是 根据 网 络 与 情 发 展 结果 进行 请 后 性 
的 动因 分 析 、 回 漳 分 析 、 演 化 分 析 ， 处 理 方式 处 于 被 
动 的 问题 解决 状态 , 不 能 满足 政府 和 企业 应 急 管 理 中 
实时 监测 舆情 动态 的 现实 要 求 。 此 外 , 用 户 在 微 博 、 
贴吧 等 自 媒体 网 络 平台 上 发 布 的 信息 具有 数据 类 型 多 


样 化 、 文 本 内 容 雁 片 化 与 不 完备 等 特性 ， 使 得 传统 的 
与 情事 件 研究 方法 不 能 满足 现 有 网 络 与 情 分 析 的 需 
要 。 因 此 网 络 与 情 的 研究 方法 需要 得 到 进一步 的 创新 ， 
在 文本 内 容 处 理 的 基础 上 , 重视 用 户 行为 、 用 户 关系 等 
社会 化 特征 数据 , 多 维度 地 挖掘 网 络 与 情 中 的 主题 。 

基于 此 , 本 文 基于 社会 网 络 视角 , 利用 LDA 主题 
模型 ， 引 入 时 间 变 量 ， 提 出 一 种 动态 识别 网 络 与 情 参 
与 主体 所 持 观 点 主题 变化 情况 的 模型 ， 以 期 为 政府 和 
企业 的 网 络 熏 情 监测 和 引导 提供 理论 支持 , 满足 关键 
与 情事 前 跟踪 和 事 中 实时 发 现 的 需求 。 


2 相关 研究 


目前 有 关 网 络 和 与 情 主 题 识别 的 研究 呈现 出 较为 迅 
速 的 递增 趋势 ， 由 于 网 络 奥 情 传播 途径 的 多 样 性 , 人 研 
究 者 除 针 对 不 同类 型 的 网 络 僵 情 信息 开展 主题 识别 研 
究 外 , 还 基于 主题 特征 的 差异 性 , 针对 不 同类 型 的 主 
题 展开 研究 。 
2.1 网 络 与 情 主 题 识 别 研 究 现状 

国外 关于 网 络 僵 情 主题 识别 的 研究 起 步 较 早 , 采 
用 的 主题 识别 研究 方法 也 更 为 多 样 。Wu 等 利用 
TF-IDF 算法 、Text-Rank 算法 ,提取 微 博 关键 词 , 标注 
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用 户 兴 趣 爱 好 ,以 挖掘 用 户 兴趣 及 关注 热点 Narang 
等 则 是 将 TF-IDF 算法 与 文本 聚 类 以 及 WordNet 局 部 
相似 性 检测 相 结合 , 发现 围绕 主题 的 社交 对 话 户 。Kim 
等 使 用 Twitter 数据 进行 实验 ,发 现 词 频 比率 能 够 恰当 
地 检测 社交 热点 话题 或 突 发 新 闻 门 。Nguyen 等 提出 一 
个 社交 软件 平台 , 用 于 从 Twitter 等 类 似 的 社交 网 络 服 
务 的 信息 扩散 模式 中 检测 出 有 意义 的 事件 , 实现 热门 
话题 的 发 现 由 。Guo 等 利用 FrequentPattern 流 控 掘 算 
法 实现 Twitter 热点 主题 的 检测 中 。 

国内 对 熏 情 主题 识别 的 研究 主要 基于 聚 类 思想 ， 
或 通过 改进 LDA 模型 , 利用 单一 维度 的 文本 信息 实现 
对 网 络 与 情 主 题 的 挖掘 。 如 叶 川 等 利用 LDA 主题 模型 
进行 热点 评论 的 分 类 推断 及 主题 特征 挖掘 ， 实现 对 微 
博 热门 评论 的 主题 标签 推 疡 轨 。 唐 晓 波 等 针对 文本 聚 
类 和 LDA 主题 模型 的 互补 特征 , 提出 一 种 两 者 结合 的 
微 博 主题 检索 模型 站。 伍 万 坤 等 对 标准 LDA 模型 进行 
改进 , 提出 一 种 挖掘 电 商 微 博 热点 话题 的 EM-LDA 综 
合 模 型 外 。 部 分 文本 取 类 方法 虽然 兼顾 了 文本 内 容 的 
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或 问题 的 主要 看 法 和 态度 。 对 与 情 观 点 信息 的 挖 气 研 
究 多 倾向 于 观点 的 抽取 与 识别 。 从 观点 抽取 的 结果 来 
看 ,可 将 现 有 研究 大 致 分 为 三 类 。 

(1) 抽取 熏 情 观点 所 指 对 象 ， 如 周 杰 等 提出 一 种 
领域 无 关 的 由 内 到 外 的 观点 主题 识别 算法 中 ,其 中 观 
点 主题 是 指 观点 所 指 对 象 , 仅 能 指明 网 民 大 众 所 评论 


持 的 主要 看 法 或 态度 。 

(2) 按 与 情 观 点 的 情感 倾向 进行 观点 的 分 类 。 丁 
居 春 等 结合 心理 学 与 自然 语言 处 理 技术 , 将 微 博 情绪 
分 为 言 、 怒 、 度 、 恶 、 惧 5 大 类 , 利用 情感 特征 、 句 
式 特征 及 句 间 特 征 对 微 博 情绪 进行 表示 , 借助 SVM 
模型 形成 微 博 情绪 5 类 分 类 模型 ,实现 微 博 情绪 的 多 
类 分 类 中。 这 种 观点 挖 气 仅 从 宏观 上 把 握 网 民主 体 的 
情感 极 性 ， 并 不 能 体现 观点 的 具体 描述 。 

(3) 与 情 观点 词 或 观点 句 的 识别 及 描述 。 陈 晓 美 
等 运用 多 文档 文摘 技术 和 以 句子 为 单位 的 LDA 主题 
模型 方法 ,获得 每 个 主题 具有 代表 性 的 观点 言论 , 揭 


结构 信息 和 语义 信息 , 但 很 难 充分 表达 语义 信息 。 而 
利用 LDA 主题 模型 实现 网 络 熏 情 主题 识别 的 研究 多 
侧重 于 对 LDA 主题 模型 的 改进 , 仍 是 单一 维度 的 主题 
识别 。 此 外 , 还 有 研究 者 将 本 体 论 和 语义 计算 的 相关 
技术 引入 到 网 络 与 情事 件 的 主题 识别 中 钻 , 同时 还 融入 
影响 力 计算 、 句 法 依存 、 社 会 网 络 分 析 等 改进 方法 [人 
进一步 完善 网 络 僵 情 主题 识别 研究 。 

微 博 具有 信息 发 布 便 捷 、 快 速 、 实 时 等 特点 , 逐 
渐 成 为 网 络 与 情 爆 发 的 主 阵 地 ， 以 微 博 为 主要 研究 对 
象 的 与 情 主 题 识别 研究 占据 了 半壁 江山 。 从 微 博 主题 
识别 的 类 型 上 看 , 已 有 研究 多 是 对 微 博 社区 主题 、 微 
博 热点 主题 的 挖掘 ,少量 涉及 到 对 观点 主题 、 潜 在 主 
题 的 研究 。 其 研究 方法 从 初始 的 简单 聚 类 逐步 演化 到 
通过 LDA 主题 模型 结合 词汇 、 句子 、 时 间 、 人 情感 等 特 
征 辅助 实现 对 微 博 主题 的 检测 ,这些 研 究 方法 多 是 从 
主题 词 途径 来 识别 与 情 主题 , 没有 综合 考虑 网 络 熏 情 
中 用 户 的 社会 信息 ,以 及 用 户 行为 对 于 与 情 传 播 演化 
的 影响 。 
2.2 网络 与 情 观 点 主题 识别 研究 现状 

观点 主题 识别 是 指 从 大 规模 的 观点 性 评论 信息 中 
获取 主题 , 并 进行 展示 的 一 系列 技术 方法 的 总 称 ， 由 
在 从 海量 的 评论 信息 中 迅速 获得 用 户 对 某 一 熏 情 事件 


示 网 络 与 情 主 要 观点 [7。 姚 兆 旭 等 利用 LDA 模型 和 
改进 的 TF-IDF 算法 构建 主题 特征 词 向 量 , 基于 相似 
度 计算 自动 抽取 主题 词汇 链 , 在 此 基础 上 , 引入 情感 
词典 , 实现 主题 观点 词 的 抽取 中 。 无 论 是 将 语法 语义 
相 结 合 的 观点 识别 方法 , 还 是 将 情感 极 性 与 主题 信 
息 相 结合 的 方法 ,实质 上 都 是 基于 内 容 的 观点 识别 ， 
其 忽略 了 社交 网 络 平台 中 用 户 行为 ,用户 属 性 等 社会 
化 特征 数据 , 不 能 满足 现 有 微 博 与 情 观 点 主题 识别 
的 需要 。 

基于 以 上 研究 现状 , 本 文 将 在 文本 内 容 处 理 的 基 
础 上 , 引入 社会 化 网 络 分 析 途 径 , 将 主题 模型 与 社会 
网 络 分 析 相 结合 ,实现 从 海量 评论 信息 中 获取 微 博导 
情 参 与 主体 的 主流 观点 ， 为 政府 与 企业 的 微 博 舆 情 引 
导 工 作 提供 有 力 的 理论 支撑 。 


3 ”网 络 奥 情 观点 主题 识别 建 模 


本 文选 取 新 浪 微 博 为 研究 平台 , 通过 和 与 情 信息 内 
容 、 用 户 关系 、 用 户 行为 三 个 方面 的 4 个 维度 (时 间 维 、 


用 户 维 、 内 容 维 、 观 点 维 ) 的 关联 , 构建 网 络 与 情 观 点 
主题 识别 模型 。 


3.1 维度 设计 
(1) 时 间 维 。 已 有 研究 往往 选取 与 情事 件 生 命 周 
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期 作为 时 间 粒 度 ， 即 对 与 情 事件 的 潜伏 期 、 成 长 期 、 
爆发 期 和 衰退 期 等 各 个 阶段 进行 分 析 ， 以 实现 对 舆情 
传播 过 程 的 动态 监测 。 本 文 所 研究 的 观点 主题 一 一 网 
民 对 某 一 事件 所 持 观 点 的 变化 往往 发 生 在 更 短 的 时 间 
粒度 内 ， 即 在 舆情 生命 周期 的 某 一 阶段 内 观点 已 发 生 
多 次 变化 。 因 此 本 文 以 “天 ”为 时 间 粒 度 , 研究 每 天 观 
点 主题 的 变化 情况 。 

(2) 用 户 维 。 用 户 是 网 络 熏 情 产生 的 主体 , 网络 骨 
情事 件 正 是 由 于 用 户 在 互联 网 上 表达 对 该 事件 的 认 
知 、 态 度 和 意见 ,并 进行 传播 而 形成 的 。 本 文 对 用 户 
维度 的 研究 侧重 于 用 户 的 行为 及 用 户 间 评论 、 点 赞 等 
关系 , 具体 包括 三 类 : 

GD 发 布 行为 。 当 微 博 用 户 想 要 及 时 分 享 所 见 所 闻 、 发 表 
个 人 观点 时 会 产生 发 布 行为 ,用户 的 发 布 行为 促使 个 人 观 
点 的 产生 。 

@) 评 论 行为 。 当 微 博 用 户 对 原始 微 博 所 述 内 容 感 兴趣 或 
持 有 个 人 看 法 时 , 会 发 生 评论 行为 ,评论 行为 也 会 促使 观点 
的 产生 。 

图 点 先行 为 。 当 微 博 用 户 对 正在 浏览 的 原始 微 博 或 评论 
表示 赞同 时 会 产生 点 赞 行为 ， 是 行为 成 本 最 低 的 观点 表达 
行为 。 

(3) 内 容 维 ,本文 所 指 “ 内 容 ” 表 示 的 是 用 户 发 表 的 
以 微 博 或 微 博 评 论 为 载体 的 带 有 情感 倾向 性 的 文字 内 
容 ， 其 中 , 将 用 户 直接 发 布 的 微 博 内 容 称 为 “原始 微 
博 ”, 将 评论 内 容 称 为 “评论 微 博 "。 这 些 带 有 用 户 情感 
倾向 性 的 内 容 里 隐 含 了 用 户 的 观点 ,是 观点 的 具体 曾 


用 户 维 内 容 维 


观点 维 ; 


Tl T2 


时 间 、 用 户 、 内 容 、 
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释 ， 即 内 容 一 定 包含 了 用 户 的 某 一 种 或 某 几 种 观点 。 
本 文 允许 用 户 发 表 多 条 内 容 , 但 假设 每 条 内 容 仅 包含 
一 种 观点 。 

(4) 观点 维 。 观 点 通常 是 指 用 户 对 某 一 事件 或 事 
物 所 持 有 的 看 法 或 情感 倾向 ,并 不 是 鳃 情事 件 的 基本 
要 素 ， 而 是 基于 内 容 总 结 、 提 取得 到 的 ， 即 观点 是 从 用 
户 发 表 的 内 容 中 高 度 概 括 、 总 结 出 来 的 。 

图 1 展示 了 时 间 、 用 户 、 内 容 及 观点 4 个 维度 间 
的 关系 。 随 着 时 间 维 度 的 变化 , 镁 情事 件 参与 主体 、 
发 表 内 容 、 所 持 观点 及 网 民 大 众 整体 观点 倾向 都 会 不 
断 发 生变 化 。 有 的 用 户 会 出 于 兴趣 等 原因 参与 与 情事 
件 整个 生命 周期 过 程 ( 如 用 户 A), 也 有 用 户 只 在 某 一 
阶段 参与 了 对 该 事件 的 讨论 (如 用 户 B)。 用 户 在 参与 事 
件 讨 论 的 不 同 阶段 会 发 表 一 条 或 几 条 不 同 的 内 容 , 可 
能 是 发 表 了 不 同 内 容 但 表达 了 同一 观点 (如 用 户 C 发 
表 的 内 容 C2、C3), 也 有 可 能 是 发 表 了 不 同 内 容 且 表 
达 了 多 种 观点 (如 用 户 D 发 表 的 内 容 D2、D3)。 有 的 用 
户 虽 发 表 了 多 条 内 容 , 但 内 容 所 含 观点 始终 不 变 (如 用 
户 C 始 终 持 有 观点 3, 直至 用 户 C 退 出 此 事件 的 讨论 )， 
也 有 用 户 发 表 内 容 的 所 属 观点 会 随时 间 的 推移 而 发 生 
变化 (如 用 户 A 在 Tl 时 期 发 表 的 内 容 Al 属于 观点 1， 
在 T2 时 期 发 表 的 内 容 A2 属于 观点 4)。 

本 文 不 研究 具体 某 一 用 户 的 观点 变化 情况 ,而 是 研 
究 参 与 事件 讨论 的 网 民 整 体 所 持 观点 主题 的 变化 情况 。 


观点 维 | 用户 维 内 容 维 。 观点 维 


Tt 时 间 维 
观点 四 维度 关系 概略 


3.2 ”总 体 框架 
本 文 网 络 鳃 情 观 点 主题 识别 框架 包括 鳞 情 网 络 


总 第 8 期 2017 年 第 8 期 


构建 、 观 点 主题 抽取 及 聚 类 、“ 用 户 - 所 属 观 点 主题 "2- 
模 网 络 构建 、 观 点 主题 演化 分 析 4 部 分 , 如 图 2 所 示 。 


“用 户 - 微 博 ” 


y 
/ 


复杂 网 络 
提取 子 网 络 


“原始 微 博 - | |“ 评 论 微 博 - “原始 微 博 - 
点 赞 用 户 ” 点 赞 用 户 ” 评论 微 博 ” 评论 用 户 ” 
2- 模 网 络 2- 模 网 络 1- 模 网 络 2- 模 网 络 


“评论 微 博 - 


LDA 模 型 


时 间 维 


主题 概率 分 布 主题 - 词 项 概率 分 布 


微 博 最 大 
可 能 所 属 
主题 


微 博 - 观 点 3 


“点 赞 用 户 - 所 属 观点 主题 "2- 模 网 络 


观点 主题 集合 


用 户 - 所 属 观点 主题 ”2- 模 网 络 


属 观点 主题 "2- 模 网 络 


观点 主题 
支持 度 分 析 


观点 主题 演化 
过 程 展示 与 分 析 


图 2 网 络 与 情 观点 主题 识别 框架 模型 


(1) 基于 用 户 维和 内 容 维 构建 “用户 - 微 博 ”复杂 网 
络 , 并 从 该 复杂 网 络 中 提取 4 个 子 网 络 ， 其 中 “原始 微 
博 -评论 微 博 ”1- 模 网 络 节 点 构成 了 微 博 集合 ， 即 该 模 
型 要 处 理 的 文本 集合 。 根 据 3.1 节 中 对 时 间 维 度 的 分 
析 ， 以 “天 ”为 时 间 粒 度 , 将 竺 处 理 的 文本 集合 离散 到 
相应 的 时 间 窗 口 , 依次 处 理 各 时 间 窗 口 的 文本 , 并进 


行 下 一 步 的 主题 抽取 。 

(2) 利用 LDA 模型 得 到 该 微 博 集合 的 “ 微 博 - 主 
题 "概率 分 布 和 “主题 - 词 项 "概率 分 布 。 依 据 “ 主 题 - 词 
项 ”概率 分 布 , 将 各 主题 下 的 词 项 进行 人 工 归 纳 得 到 
各 主题 所 代表 的 观点 ， 即 本 文 所 研究 的 观点 主题 , 形 
成 观点 主题 集合 ,完成 对 微 博 与 情 观 点 主题 的 抽取 ; 
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同时 , 根据 “ 微 博 -主题 ”概率 分 布 矩 阵 , 利用 LDA 直 
接 聚 类 ,实现 对 微 博 按 主题 聚 类 。 

(3) 在 上 述 微 博 聚 类 结果 的 基础 上 , 结合 网 络 僵 
情 构 建 中 提取 出 的 其 他 三 个 子 网 络 中 微 博 与 用 户 的 对 
应 关系 , 构建 “用户 - 所 属 观点 主题 ”2- 模 网 络 。 

(4) 基于 “用 户 -所 属 观点 主题 ”2- 模 网 络 进行 与 情 
观点 主题 演化 分 析 , 该 演化 分 析 包 括 两 部 分 : 一 是 通 
过 对 “用 户 -所 属 观点 主题 ”2- 模 网 络 中 节点 人 度 的 分 
析 得 到 观点 主题 支持 度 排名 , 对 每 天 的 观点 主题 支持 
度 变化 情况 进行 分 析 与 说 明 ; 二 是 对 和 与 情事 件 观 点 主 
题 “ 产 生 -发 展 -衰退 ”的 演化 过 程 进行 展示 与 分 析 。 
3.3 “用 户 - 微 博 ”复杂 网 络 构建 

“用 户 - 微 博 ”复杂 网 络 中 的 节点 包括 微 博 、 用 户 两 
大 类 ， 其 中 微 博 节点 包括 原始 微 博 和 评论 微 博 两 种 ; 
用 户 类 节点 包括 评论 用 户 及 点 赞 用 户 , 其 中 点 赞 用 户 
又 分 为 点 赞 原始 微 博 的 用 户 和 点 赞 评论 微 博 的 用 户 。 
节点 关系 主要 涉及 回复 、 发 表 和 点 赞 三 种 关系 。 节 点 
与 节点 间 的 关系 如 图 3 所 示 。 


用 站 电 二 乞 几 公 二 遇 5 公 人 机 改 夫 出 和 
(点 先 ) (原始 ) (评论 ) (评论 ) 
人 点 交 
用 户 
(点 先 ) 


图 3 “用 户 - 微 博 "复杂 网 络 模型 


(D) “原始 微 博 -评论 微 博 ?1- 模 网 络 

为 了 分 析 原 始 微 博 的 观点 和 评论 微 博 的 观点 , 将 
“用 户 - 微 博 ” 复 杂 网 络 的 用 户 贡 点 剔除 ,提取 回复 关 
系 , 转换 成 < 原始 微 博 -评论 微 博 ”1- 模 网 络 ， 如 图 4 所 
示 。 该 网 络 将 原始 微 博 和 评论 微 博 视 为 同一 种 节点 ， 
即 微 博 节点 ， 以 它们 之 间 的 回复 关系 为 连 线 ,， 连 线 的 
方向 代表 了 回复 的 方向 。 同 时 , 一 条 评论 微 博 仪 代表 
对 原始 微 博 的 一 条 回复 , 所 以 线 值 为 1。 该 网 络 由 一 个 
个 不 连通 的 “ 星 型 " 子 网 络 构 成 ,以 “原始 微 博 ” 为 子 网 
络 的 中 心 节点 ， 外 围 的 “评论 微 博 "必须 通过 中 心 节 点 
才能 建立 联系 ， 即 评论 微 博 与 评论 微 博之 间 因 共同 回 


评论 


微 博 Al 


评论 


评论 > 原始 评论 


微 博 B4 微 博 B 微 博 B2 


| 


评论 


微 博 B3 


图 4 “原始 微 博 -评论 微 博 ”1- 模 网 络 模型 

(2) “原始 微 博 -点 赞 用 户 22- 模 网 络 

提取 图 3 中 原始 微 博 和 点 赞 用 户 两 类 节点 , 连 
线 代 表 节 点 间 的 点 赞 关 系 ， 连 线 方向 代表 点 赞 方 
向 。 由 于 用 户 对 同一 条 微 博 只 能 发 生 一 次 点 赞 行为 ， 
因此 连 线 线 值 为 1。 图 5 为 “原始 微 博 -点 赞 用 户 ” 
2- 模 网 络 结构 , 该 网 络 呈 “网 状 ” 结 构 ， 用户 间 因 点 
赞 了 同一 微 博 而 建立 联系 ,同时 , 不 同 原始 微 博 之 
间 因 被 同一 用 户 点 赞 而 建立 联系 。 该 网 络 的 网 络 规 
模 取 决 于 点 赞 用 户 训 点 个 数 , 不 仅 在 一 定 程 度 上 表 
征 了 原始 微 博 的 热度 ， 也 表达 了 用 户 对 原始 微 博 的 
赞同 强度 。 

(3) “评论 微 博 -点 赞 用 户 ”2- 模 网 络 

现实 生活 中 , 对 评论 和 原始 微 博 点 赞 的 用 户 可 能 
存在 交集 , 但 由 于 难以 获取 对 评论 进行 点 赞 的 用 户 的 
具体 信息 , 因此 本 文 假设 对 评论 点 赞 的 用 户 群 和 对 原 


复 了 同一 原始 微 博 才 建立 联系 。 因 此 , 该 网 络 的 网 络 
密度 低 ,， 网 络 规模 取决 于 外 围 节 点 个 数 ， 在 一 定 程度 
上 表征 了 原始 微 博 的 热度 。 
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台 微 博 点 赞 的 用 户 群 不 存在 交集 。 提 取 图 3 中 的 评论 
微 博 和 点 赞 用 户 两 类 节点 ， 以 其 之 间 的 点 赞 关系 为 连 
线 , 连 线 的 方向 代表 点 赞 的 方向 。 由 于 用 户 对 同一 条 
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评论 只 能 发 生 一 次 点 先行 为 , 因此 连 线 线 值 为 1。 图 6 
为 该 2- 模 网 络 模型 结构 , 与 图 5 所 示 网 络 不 同 点 在 于 : 
该 网 络 会 因原 始 微 博 的 不 同 而 形成 不 同 的 子 群 , 子 群 
内 的 网 络 密度 高 于 子 群 间 的 网 络 密度 ， 即 对 同一 条 原 


ChinaXiv 合 作 期 刊 


总 第 8 期 2017 年 第 8 期 


台 微 博 的 不 同 评论 进行 点 赞 的 用 户 的 重合 度 更 高 。 评 
论 微 博 节点 数量 和 点 赞 用 户 节 点 数量 在 一 定 程度 上 表 
征 了 原始 微 博 热度 ， 点 赞 用 户 节 点 数量 体现 了 评论 微 
博 被 赞同 的 强度 。 


图 5 “原始 微 博 - 点 赞 用 户 ”2- 模 网 络 模型 


图 6 “评论 微 博 -点 赞 用 户 ?2- 模 网 络 模型 


Data Analysis and Knowledge Discovery 


ChinaXiv 合 作 期 刊 


a V 加 


_S# 辑 


(9 “评论 微 博 -评论 用 户 "2- 模 网 络 
提取 图 3 中 的 评论 微 博 和 评论 用 户 两 类 节点 ,以 
它们 之 间 的 发 表 关系 作为 连 线 , 连 线 方向 代表 发 表 关 


模型 , 同 图 4 所 示 网 络 类 似 ， 由 一 个 个 不 连通 的 “ 星 
型 * 子 网 络 构 成 ,以 “评论 用 户 ” 为 子 网 络 的 中 心 节点 ， 
外 围 的 “评论 微 博 ” 必 须 通 过 中 心 节 点 才能 建立 联系 ， 


系 的 方向 。 虽 然 用 户 可 以 就 同一 个 原始 微 博 发 表 多 次 
评论 , 但 由 于 本 文 将 每 条 评论 视 作 一 条 单独 的 微 博 ， 
所 以 评论 用 户 与 评论 微 博 间 也 是 一 一 对 应 关系 ， 即 连 
线 的 线 值 为 1。 图 7 为 “评论 微 博 - 评 论 用 户 ”2- 模 网 络 


即 评论 微 博 与 评论 微 博之 间 因 由 同一 用 户 发 表 才 建立 
了 联系 。 评 论 是 一 种 行为 成 本 较 高 的 用 户 行为 , 因此 
网 络 规模 ， 即 外 围 评 论 微 博 节 点 个 数 , 在 很 大 程度 上 
表征 了 用 户 的 活跃 程度 。 


评论 评论 
微 博 Al 微 博 B1 
评论 a 评论 
微 博 A6 和 发表 害 二 A2 | 
E44 TY 
评论 评论 评论 评论 
用 户 A 微 博 B4 用 户 B 微 博 B2 
a 评论 
评论 | 微 博 A3 
微 博 A5 
和 评论 本 于 
~ 评论 
© 微 博 A4 币 博 B3 
~ 图 7 “评论 徽 博 -评论 用 户 ”2- 模 网 络 模型 
OO 3.4” 微 博 观 点 主题 抽取 及 聚 类 档 -主题 "概率 分 布 。 由 于 本 文选 取 的 研究 对 象 是 带 有 
CN LDA 模型 认为 文档 是 由 主题 按 一 定 概率 组 成 的 ， 观点 倾向 性 的 评论 微 博 和 原始 微 博 ,因此 对 LDA 模 


~y 而 每 个 主题 又 是 若干 词 项 的 概率 分 布 。 利 用 LDA 模 


型 抽取 出 来 的 微 博 主 题词 项 进行 归纳 , 组 织 成 句 ， 即 


二 型 进行 主题 的 抽取 是 上 述 文档 生成 过 程 的 逆 过 程 ， ” 视 为 微 博 观点 主题 。 微 博 观点 主题 抽取 过 程 如 图 8 
(5 ”通过 LDA 模型 可 以 得 到 “主题 - 词 项 "概率 分 布 和 “ 文 。 所 示 。 
© LDA 模 型 


王 -一 


主题 - 词 项 概率 分 布 


文档 -主题 概率 分 布 


主题 1 主题 2 Ee 主题 N 
主题 主题 2 和 主题 N 文档 1 ”pp( 主 题 1| 文 档 1) 已 主题 ?文档 D 一 一 7( 主 题 N 文 档 1) 


文档 2 (主题! 文档 ) 主题 ?| 文档 2) ”x 主题 N 文 档 2) 


词 项 11 ” 词 项 12 … 词 项 ln ” 词 项 21 ” 词 项 22 …… 词 项 2 … 词 项 NI 词 项 N2 …… 词 项 Na| | 


文档 Mp( 主 题 1| 文 档 M) ”p( 主 题 2 文档 M) …… ”pp( 主 题 N 文 档 M) 


人 工 归纳 人 工 归纳 人 工 归纳 Kmeans 聚 类 
观点 主题 1 观点 主题 2 观点 主题 N 文档 --- 最 大 可 能 所 属 主 题 


FE 题 集合 


微 博 --- 最 大 可 能 所 属 观点 主题 
图 8 微 博 观点 主题 抽取 模型 


其 中 , 利用 LDA 主题 模型 进行 微 博 舆 情 观点 抽取 提取 、 主 题词 合并 归纳 等 步 又 ,最 终 得 到 主题 - 词 项 概 
的 过 程 主要 包括 文本 预 处 理 、 文 本 建 模 、 主 题 特征 词 。 率 分 布 , 同时 得 到 文档 -主题 分 布 ,表现 形式 如 下 。 
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p(zild') p(z2|di) pl(z:| qi) 
pl d’;) plz2| d2) plz| d2) 
plzildy) pda … pad 


利用 该 文档 -主题 分 布 得 到 每 条 微 博 文本 的 最 大 
可 能 所 属 观点 主题 ,实现 微 博 聚 类 。 对 于 第 n 个 文本 ， 
即 矩 阵 的 第 n 行 , 大 有 二 = arg max plz 1q,)， 则 将 第 


n 个 文本 归 入 主题 1 中 。 
3.5 “用 户 - 所 属 观点 主题 ”2- 模 网 络 构建 

基于 3.4 节 微 博 聚 类 结果 及 3.3 节 用 户 与 微 博 的 对 
应 关系 , 构建 “用 户 -所属 观 点 主题 ”2- 模 网 络 ， 如 图 9 
所 示 。 该 网 络 模型 说 明 一 个 观点 主题 的 受 支 持 程 度 取 
决 于 表达 该 观点 主题 的 评论 用 户 数 与 赞同 该 观点 的 点 
赞 用 户 数 之 和 。 


原始 微 博 
点 赞 用 户 


评论 微 博 
点 赞 用 户 


图 9 “用 户 - 所 属 观 点 ”2- 模 网 络 模型 


3.6 基于“ 用户- 所 属 观 点 主题 ”网络 的 观点 支持 度 
分 析 

基于 内 容 维 度 提取 出 微 博 与 情 观 点 主题 后 , 为 了 
得 到 网 民 最 支持 的 观点 ,还 需要 加 入 用 户 维度 ， 从 社 
会 网 络 的 视角 对 各 观点 主题 的 受 支 持 程度 做 进一步 分 
析 。 由 于 图 9 所 示 的 网 络 模 型 中 只 涉及 由 用 户 节 点 指 
向 观点 主题 节点 的 单 向 弧 , 本 文选 取 节 点 人 度 作 为 观 
点 主题 支持 度 的 测量 指标 。 观 点 主题 节点 的 人 度 可 细 
分 为 绝对 观点 支持 度 和 相对 观点 支持 度 , 其 中 , 绝对 
观点 支持 度 计算 如 公式 (1) 所 示 。 

sp(04) = 2 Cx FC = Ck +2,Cy (1) 
i 7 i 7 


其 中 ，o4 表示 “用 户 - 所 属 观 点 主题 网络 中 的 
观点 主题 节点 ，C 的 取 值 范围 为 {0,1}，Cj 取 1 时 
表示 点 赞 用 户 赞同 该 观点 主题 kh Ci 取 1 时 表示 评 
论 用 户 发 布 表达 该 观点 主题 的 相关 评论 。 为 进一步 
分 析 不 同时 间 段 (每 天 ) 的 观点 支持 度 演化 情况 ， 需 
要 对 观点 支持 度 进行 标准 化 处 理 ， 以 做 不 同 网 络 间 
的 比较 。 观 点 主题 的 相对 观点 支持 度 计 算 如 公式 (2) 


Yi\ -一 人 /器 日 工 
Vi = = 
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所 示 。 
(2) 


U 
其 中 ，NWN 表示 网 络 中 的 用 户 节点 总 数 。 
观点 支持 度 反 映 了 用 户 对 该 观点 主题 的 支持 程 
度 ， 入 度 越 大 代表 有 越 多 的 用 户 赞同 、 支 持 该 观点 , 该 
观点 主题 就 越 有 可 能 为 主流 观点 , 在 舆论 引导 过 程 中 
就 越 应 该 引起 政府 与 企业 的 重视 。 


4 实验 与 结果 分 析 


以 “双汇 进口 美国 猪肉 ”事件 为 例 , 选取 目前 受 
众 较 广泛 的 新 浪 微 博 作为 研究 平台 ， 以 “双汇 猪肉 ” 
为 关键 词 ， 检 索 并 收集 发 布 时 间 在 2016 年 4 月 1 日 
-2016 年 4 月 15 日 的 所 有 微 博 与 评论 ,得 到 有 效 原 
台 微 博 和 评论 微 博 共 计 215 条 ,进行 鼻 情 观点 主题 
识别 的 实验 。 
4.1 “双汇 进口 美国 猪肉 ”事件 “用 户 - 微 博 *2- 模 网 络 

基于 3.3 节 构 建 “ 用 户 - 微 博 "2- 模 网 络 ， 利 用 Pajek 
软件 对 其 实现 可 视 化 , 效果 如 图 10 所 示 。 

粉色 节点 表示 用 户 类 节点 ， 蓝 色 节 点 表示 微 博 类 
节点 ,节点 大 小 在 一 定 程度 上 表征 了 微 博 热 度 。 由 于 
本 文选 取 的 舆情 事件 规模 较 小 , 使 得 不 同 微 博 间 的 评 
论 用 户 群 重合 度 低 ， 网 络 整体 呈现 不 连通 状态 。 
4.2 “双汇 进口 美国 猪肉 ”事件 鼻 情 观点 主题 抽取 
及 聚 类 

以 “天 ”为 时 间 单 位 , 将 微 博 离 散 到 不 同 的 时 间 窗 
口 ,选用 开源 的 JGibbLDA 实现 每 日 微 博 主题 的 抽取 ， 
主题 及 其 词 项 分 布 结果 (以 2016 年 4 月 7 日 为 例 ) 如 图 
11 所 示 。 根 据 主题 及 各 主题 下 最 优 词 项 的 抽取 结 
对 词 项 进行 合并 、 归 纳 得 到 观点 主题 , 结果 如 表 1 所 
示 ( 以 2016 年 4 月 7 日 为 例 )。 

为 评价 LDA 主题 抽取 效果 , 研究 对 所 收集 的 215 条 
微 博 进行 内 容 分 析 ， 人 工 总 结 其 观点 主题 。 通 过 与 人 工 
总 结 的 主题 进行 比 对 发 现 , LDA 主题 抽取 效果 较 好 。 但 
利用 LDA 进行 观点 主题 抽取 主要 存在 两 个 不 足 。 

(1) 利用 LDA 模型 抽取 出 来 的 不 同 主题 可 能 表达 
的 是 同一 个 含义 。 如 表 1 所 示 的 观点 主题 2 与 观点 主 
题 9 都 表达 了 “双汇 进口 美国 猪肉 没 错 , 不 是 卖国 贼 ” 
的 意思 , 但 LDA 模型 将 其 视 为 不 同 的 两 个 主题 , 而 人 
工 总 结 时 则 会 将 两 者 视 为 同一 主题 。 


Data Analysis and Knowledge Discovery 


weibo25 


Ja wi 


ChinaXiv 合 作 期 刊 


weibo17 weibo18 weibo10 weibod weiba21 weibo22 


weibo23 weiboAy weibods weibaf2 weiba5 weibo49 


weibo13 weiba27 weibo33 weibo14 weibo?9 weibos6 
weibosa weibo39 weibo30 weibad1 weiboa2 weibo15 weiba31 
weibod45 weibo46 weibo16 weibos weibos 


图 10 
(2) 文档 预 处 理 阶段 ， 如 “是 ”、“ 不 是 ”这 类 字眼 会 


weibo32 


“双汇 进口 美国 猪肉 ”事件 “用 户 - 微 博 ”2- 模 网 络 可 视 化 效果 


表 1 “双汇 进口 美国 猪肉 ?事件 观点 主题 (2016-4-7) 
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被 过 滤 掉 ， 导致 对 LDA 模 型 提取 出 来 的 词 项 进行 人 工 
归纳 概括 时 很 有 可 能 出 现 总 结 出 来 的 观点 与 实际 观点 
恰恰 相反 的 情况 。 如 用 户 评论 内 容 为 “双汇 不 是 卖国 


贼 ” 而 LDA 提取 出 的 词 项 


则 是 “双汇 ”、“ 卖 国 贼 ”, 这 


就 时 致 在 人 工 归纳 时 ， 有 可 能 将 这 一 观点 主题 总 结 ; 


“双汇 是 卖国 贼 ”。 


Topic Och: 
猪肉 1.3315746753246753 
国内 0.8648538961038961 
责 0.5280032467532467 
国外 0.22362012987012986 
埋 希 0.20738636363636365 
Tepic ith: 
买 1.1991604477611941 
卖国 贱 0.3782649253731343 
日 本 0.32655695522366D6 
香港 0.30830223880597013 
奶粉 0.30830223880597013 
Topic 2th: 
居于 0.17317541613316262 
利益 0.13796414852752883 
美国 0.13476312419974393 
政府 0.13156209987195305 
价值 疯 0,12836107554417414 
Tepic 3th: 
进口 0.40557163531114326 


Topic Sth: 
猪肉 0.41853932584269665 
真 0.2999375780274657 
养殖 业 0.20318352059925093 
人士 0.18757802746566793 
观 汇 0.1313982521847 必 9 人 0 
Topic 6th; 
高 0.3364882506527415 
物价 0,3201697127937337 
东西 0.3136422976501306 
妾 0.27447780678851175 
造 0.2712140992167102 
Topic 7th: 
MC 6.5759361997226076 
收购 0.2604022191400832 
价格 优势 0.2604022191400832 
中 国 0.23395977808599168 
访 帘 0,1945214979195562 
Topic 8th: 
买 0.9774159663865546 


观点 主题 


[>> 一 


[9% 


I 


10. 


猪肉 国内 贵 ， 国 外 便宜 
进口 猪肉 就 像 日 本 买 电饭煲 ， 香 港 买 奶粉 , 不 是 卖国 贼 
(卖国 贼 说 法 ) 哗 众 取 宠 , 不 代表 政府 和 社会 主流 价值 观 ， 


双汇 采用 真 猪肉 


国内 物价 高 ,东西 造 的 质量 
双汇 收购 是 因为 美 帝 生 猪 有 价格 优势 
买 便宜 东西 是 人 性 使 然 ， 是 爱国 行为 
国外 农产品 远 渡 重洋 , 经 海关 收 税 后 还 比 国内 便宜 , 值得 


政府 应 该 对 农业 进行 补贴 ， 控制 市 场 
国内 物价 都 比 国外 高 ,愿意 去 国外 生活 


为 进一步 分 析 各 观点 主题 受 支 持 程度 ， 需 利用 公 
式 (1) 实 现 微 博 与 观点 主题 间 的 映射 ， 即 完成 微 博 - 观 


点 主题 聚 类 。 表 2 展示 了 2016 年 4 月 7 日 的 部 分 聚 类 
结果 。 


表 2 


“双汇 进口 美国 猪肉 ?事件 部 分 聚 类 结果 (2016-4-7) 


农业 0.2897973950795948 便宜 0.8723739495798318 » 所 属 观 点 . 所 属 观 点 

补贴 0.2572358900144718 爱国 0.8198529411764706 微 博 编号 主题 编号 微 博 编 号 主题 编号 

市 场 0,19934876989869757 便 直 货 0.37867647058982352 

注销 0.166787264833574556 人 性 0.3786754705882352 1 Topic2 115 Topic2 

Topic 4th: Topic 9th: 

国内 0.4995378927911275 0.9365763546798029 2 Topicl 116 Topic7 

国外 0.2869685767097967 农产品 0.8318965517241379 

生活 0.23613678373382624 海关 0.8011083743842364 3 Topic2 117 Topic6 

企业 0.2222735674676525 收 税 0,7826354679802955 

进口 0.21765249537892792 值得 0.7826354679802955 4 Topic9 118 Topic8 
图 11 “双汇 进口 美国 猪肉 ”事件 评论 主题 最 优 5 Topic6 119 Topic5 

词 项 提取 结 果 (2016-4-7) 6 Topic10 120 Topic4 
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对 每 日 微 博 进行 人 工 观 点 分 类 , 将 得 到 的 LDA 限 
类 结果 进行 对 比 , 结果 一 致 用 数字 1 表示 , 结果 不 一 
致 用 数字 0 表示 。 用 对 比 结果 一 致 的 数量 与 总 数 之 比 
表示 聚 类 结果 的 准确 率 , 计算 得 到 每 日 微 博 聚 类 准确 
率 , 如 表 3 所 示 。 
表 3 聚 类 准确 率 (2016 年 ) 


日 其 4 月 4 月 4 月 4 月 4 月 9 日 平均 
多 加 TH 8 日 9 日 之 后 准确 率 
准确 率 0.66 0.53 0.71 0.47 0.6 0.56 
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从 表 3 可 以 看 出 , 用 单一 的 LDA 模型 直接 聚 类 
方法 得 到 的 聚 类 结果 并 不 十 分 准确 , 究 其 原因 可 能 
为 : LDA 模型 本 身高 度 依赖 词 频 ; 同一 评论 可 能 表达 
多 种 观点 ， 而 该 聚 类 方式 默认 将 评论 只 归 为 某 一 种 
观点 主题 。 


4.3 “用 户 - 所 属 观 点 主题 ”2- 模 网 络 构建 

基于 3.5 节 构 建 的 “用 户 -所属 观 点 主题 ”2- 模 网 
络 ,利用 Pajek 软件 可 视 化 , 效果 如 图 12 所 示 ( 以 2016 
年 4 月 7 日 为 例 )。 


沫 再 自 内 贵 ,国外 便宜 


图 12 “双汇 进口 美国 猪肉 ”事件 “用 户 - 所 属 观 点 主题 "可 视 化 效果 (2016-4-7) 


图 12 中 粉色 节点 代表 用 户 节 点 ， 蓝 色 节 点 代表 观 
点 主题 节点 ， 蓝 色 节 点 的 大 小 表征 了 2016 年 4 月 7 日 
当天 观点 主题 的 受 支 持 度 情 况 。 由 于 在 3.3 节 中 假设 
点 赞 用 户 群 体 间 不 存在 交集 ， 因 此 该 网 络 形成 多 个 以 
各 观点 主题 为 中 心 的 网 络 子 群 , 整体 呈 不 连通 状态 。 
对 单 日 “用 户 -所属 观 点 主题 网络 的 分 析 无 法 得 到 观 
点 主题 是 如 何 随时 间 变 化 的 , 因此 还 需 进一步 的 观点 
主题 演化 分 析 。 
4.4” 微 博 观 点 主题 演化 分 析 

根据 3.6 节 对 观点 主题 支持 度 的 描述 ,利用 节点 
人 度 求 得 观点 主题 支持 度 , 并 做 归 一 化 处 理 ， 处理 结 
果 如 表 4 所 示 ( 以 2016 年 4 月 7 日 为 例 )。 可 以 看 出 , 利 
用 LDA 模型 仅 基于 内 容 维度 提取 出 的 主题 排名 与 加 
人 社会 化 数据 后 得 到 的 主题 排名 并 不 一 致 ， 这 说 明 对 
网 络 与 情 的 研究 不 能 缺少 对 用 户 行为 、 用 户 关系 等 社 
会 化 数据 的 分 析 。 在 实际 鳃 情 监 测 中 , 需要 加 强 对 支 


持 度 高 的 观点 主题 的 关注 , 尤其 是 当 文 持 度 高 的 观点 
为 负面 倾向 时 ,更 应 引起 政府 和 企业 的 重视 ， 及 时 做 
好 恤 情 引导 工作 ,以 免 这 些 文 持 度 高 的 负面 观点 影响 
网 民 整 体 情 感 倾向 和 负面 情绪 的 二 次 爆发 。 
表 4 “双汇 进口 美国 猪肉 ”事件 观点 主题 编号 及 其 
相对 支持 度 (2016-4-7) 


观点 主题 编号 节点 人 度 归 一 化 观点 主题 
6 0.19 Topic$ 
7 0.15 Topicl 
8 0.13 Topic9 
9 0.13 Topic8 
10 0.11 Topic6 
11 0.10 Topic2 
12 0.06 Topic4 
13 0.06 Topic0 
14 0.04 Topic3 
15 0.03 Topic7 
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本 文 以 “天 ?为 时 间 粒 度 ,， 对 各 个 观点 主题 相对 文 
持 度 的 变化 情况 进行 分 析 。 为 更 直观 地 得 到 各 观点 主 


6. 双 汇 用 真 
猪肉 
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题 的 变化 情况 ， 对 其 演化 过 程 进行 可 视 化 展示 ， 如 图 
13 所 示 。 


' Us | RE | 
| | 16. 国 由 | 本 
i 19. 双 汇 进 二， 排骨 
: 口 猪肉 是 | ， 
2. | (a y 分 
!|s. 国 外 猪肉 便 || 9. 双汇 进口 上 -学 | 
系 到 辐 | 。 ;| 宣 什 得 深思 。 | | 猪肉 是 爱国 ,| 
| 1 国内 物价 7 | 23. 美 国 猪 吃 
' - 1 天 | 豆 
价 高 [~ 1 卖国 由 宙 ”TS、， 肉 精 合法 
~ -.、| 法 不 佬 得 关 注 | 
4 存栏 量 一 
i 1 18. 国 内 ! 人 ! 
E24 ! | 了 1 口 大人 不 1 
肉 价格 物价 高 去 国 碱 ”| | 
5. 养 殖 ! 国外 狂 ' 
基 ! ! 1 
时 间 
1 1 ! L > 
4.2 4.7 4.8 4.9 4.9 之 后 


图 13 “双汇 进口 美国 猪肉 ”事件 观点 主题 演化 过 程 


从 图 13 可 以 看 出 , 观点 主题 会 随时 间 的 推进 而 不 
断 变化 , 但 关乎 人 们 自身 利益 的 观点 ， 如 人 们 对 物价 
高 的 抱怨 , 会 贯穿 事件 始终 。 因 此 当 这 种 关乎 公众 利 
益 的 观点 出 现 , 尤其 是 表现 为 负面 情感 倾向 时 , 应 该 
立刻 引起 政府 和 企业 的 重视 ， 及 时 做 好 与 情 引导 工作 ， 
避免 这 种 负面 观点 的 继续 蔓延 。 此 外 , 网 民 观 点 受 其 
自身 认 知 影响 , 如 ， 有 网 民 育 目 希望 所 有 东西 都 从 国 
外 进口 , 也 有 网 民 能 理性 地 提出 美国 瘦 肉 精 合法 而 质 
疑 进口 猪肉 的 质量 。 当 “ 瘦 肉 精 " 相 关 观 点 被 提出 后 ， 
又 有 用 户 紧 接着 提出 了 “美国 使 用 转基因 大 豆 作 为 猪 
饲料 ”这 一 观点 , 说 明 用 户 观 点 会 受 其 他 用 户 影响 。 


S 结 语 


本 文 基于 社会 网 络 视角 , 利用 LDA 主题 模型 , 多 
方面 、 多 维度 地 提出 一 种 网 络 与 情 观 点 主题 识别 模型 。 
实验 整体 效果 显示 , 本 文 所 构建 的 网 络 与 情 观点 主题 
识别 模型 能 有 效 识别 网 络 与 情 中 的 观点 主题 , 把 握 网 
民主 体 的 主流 观点 。 本 研究 尚 处 于 初探 阶段 , 结合 模 
型 本 身 及 实验 效果 来 看 , 本 文 构建 的 观点 主题 识别 模 
型 还 缺少 对 主题 数 、 词 向 量 个 数 的 确定 方法 的 研究 ， 
缺少 对 主题 抽取 结果 及 聚 类 效果 的 科学 评价 。 今 后 ， 
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笔者 将 就 上 述 不 足 对 模型 进行 不 断 完 善 ， 同 时 考虑 将 
用 户 属性 引入 到 观点 主题 识别 的 方法 体系 中 , 多 方位 
地 识别 网 络 熏 情 观点 主题 ,以 期 帮助 政府 和 企业 了 解 
社情 民意 ,把握 网 络 鼻 论 倾向 , 做 出 正确 决策 。 
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Data Analysis and Knowledge Discovery 


Identifying Topics of Online Public Opinion 


LiZhen Ding Shengchun Wang Nan 
(Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094, China) 


Abstract: [Objective] This paper aims to identify the topics of online public opinion. [Methods] We constructed a 
model to extract public opinion based on the information content of the Weibo posts, the relationship among the users, 
and user behaviors. [Results] We built a public opinion network, extracted and clustered relevant topics, constructed a 
two-mode network of “user-topic” and evolution of the opinion topics. The proposed method could identify topics of 
online public opinion effectively. [Limitations] The influence of users’ attributes on topic identification needed to be 
investigated. [Conclusions] We could identify the topics of online public opinion based on the social network analysis 
with the help of LDA model. 

Keywords: Network Public Opinion Social Network LDA Model Topic Identification Opinion Topic 


学 术 研 究 : 机 器 学 习 可 以 预测 约会 的 吸引 力 程度 ,但 无 法 找到 完美 的 灵魂 伴侣 


约会 网 站 经 常 声称 两 个 人 之 间 的 吸引 力 大 小 可 以 通过 爱好 和 偏好 的 正确 组 合 来 进行 预测 , 但 是 一 项 新 的 研究 却 对 这 一 
断言 提出 质疑 。 该 研究 分 析 了 快速 约会 的 数据 ， 发 现 机 器 可 以 预测 谁 会 是 你 喜欢 的 ， 以 及 你 喜欢 她 /他 的 程度 , 但 是 它 并 不 能 
解释 人 与 人 之 间 的 那 种 狂热 喜爱 的 奥妙 所 在 。 

该 研究 题 为 《浪漫 欲望 是 否 可 预测 ? 机 咒 学 习 应 用 于 初始 浪漫 吸引 力 预 测 》, 已 在 Psychological Science 杂志 在 线 发 表 。 
人 研究 人 员 使 用 两 个 样本 的 快速 约会 数据 ， 这些 受 试 者 填写 了 100 多 种 爱好 和 偏好 的 调查 问卷 , 然后 被 安排 在 一 系列 的 4 分 钟 
约会 中 见面 。 之 后 , 受 试 者 对 他 们 的 互动 给 出 评价 ,对 他 们 遇 到 的 每 个 人 的 感 兴 趣 程 度 和 对 他 们 的 吸引 力 进行 打分 。 

该 文章 作者 心理 学 教授 Samantha Joel 和 其 同事 使 用 最 先进 的 机 器 学 习 算 法 测试 是 否 可 以 根据 受 试 者 的 问卷 回答 , 在 他 
们 见面 之 前 预测 他 们 是 否 是 彼此 的 “那个 人 ”。 答 案 是 否定 的 。 研 究 发 现 预 测 一 个 人 喜欢 和 被 喜欢 的 整体 趋势 是 可 能 的 ,但 为 
两 个 特定 的 人 配对 是 不 可 能 的 。 

Joel 说 : “我 们 无 法 预测 在 快速 约会 的 环境 下 能 成 功 匹 配 多 少 对 。 在 100 多 个 受 试 者 中 , 我 们 原本 以 为 至 少 可 以 预测 那么 
几 对 或 十 几 对 , 但 是 没 想到 我 们 的 结果 竟然 是 零 。” 

Joel 认为 ,如 果 人 们 能 够 通过 将 信息 输入 计算 机 来 寻找 完美 的 灵魂 伴侣 ， 从 而 克服 约会 过 程 中 的 种 种 麻烦 和 心痛 , 那 将 
是 一 件 伟 大 的 事情 。 他 表示 , 虽然 在 线 约会 网 站 通过 缩小 范围 并 识别 潜在 的 恋爱 对 象 来 提供 有 价值 的 服务 , 但 是 你 仍然 要 通 
过 物理 接触 这 个 过 程 来 了 解 对 这 些 潜在 对 象 的 真实 感受 。 

(编译 自 : https://www.sciencedaily.com/releases/2017/08/170830132200.htm) 
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